body{ font-family: Helvetica; font-size: 16pt; } /* Headers */ h1,h2,h3,h4,h5,h6{ font-size: 24pt; }

Breve introducción

En este documento se abordará una breve descripción relaciondada con la base de datos sobre la accidentalidad vehicular en la ciudad de Medellín entre los años 2014 y 2020, haciéndo énfasis en las variables más relevantes de esta base de datos como lo son la fecha de ocurrencia, las comunas y los barrios en los que se dan los incidentes y el tipo de accidentalidad sucedida, entre otros. Esto con el propósito de tener un acercamiento inicial a esta base de datos como parte del primer proyecto del curso de Técnicas de Aprendizaje Estadístico del semestre 2021-2 de la Universidad Nacional de Colombia, sede Medellín.

## Rows: 270,330
## Columns: 26
## $ FECHA_ACCIDENTE    <dttm> 2014-07-19 15:30:00, 2014-10-25 14:50:00, 2014-11-~
## $ AÑO                <fct> 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 201~
## $ MES                <fct> Julio, Octubre, Noviembre, Diciembre, Diciembre, Ag~
## $ FECHA              <date> 2014-07-19, 2014-10-25, 2014-11-20, 2014-12-02, 20~
## $ HORA               <fct> 15:30:00, 14:50:00, 08:00:00, 13:00:00, 19:45:00, 1~
## $ CLASE_ACCIDENTE    <fct> Atropello, Atropello, Atropello, Atropello, Atropel~
## $ DISEÑO             <fct> Tramo de vía, Lote o predio, Lote o predio, Lote o ~
## $ GRAVEDAD_ACCIDENTE <fct> Con heridos, Con heridos, Con heridos, Con heridos,~
## $ BARRIO             <fct> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,~
## $ COMUNA             <fct> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,~
## $ X_MAGNA            <dbl> 820000, 820000, 820000, 820000, 820000, 820000, 820~
## $ Y_MAGNA            <dbl> 1180000, 1180000, 1180000, 1180000, 1180000, 118000~
## $ LONGITUD           <dbl> -75.70378, -75.70378, -75.70378, -75.70378, -75.703~
## $ LATITUD            <dbl> 6.221415, 6.221415, 6.221415, 6.221415, 6.221415, 6~
## $ COMUNASMOD         <chr> "x", "x", "x", "x", "x", "x", "x", "x", "x", "x", "~
## $ DIAX               <int> 19, 25, 20, 2, 19, 1, 4, 18, 8, 13, 26, 3, 31, 30, ~
## $ MESX               <dbl> 7, 10, 11, 12, 12, 8, 8, 8, 9, 10, 11, 9, 8, 11, 11~
## $ AÑOX               <dbl> 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 201~
## $ SEMANAX            <dbl> 29, 43, 47, 48, 51, 31, 31, 33, 36, 41, 48, 36, 35,~
## $ SEMANAXX           <chr> "29", "43", "47", "49", "51", "31", "32", "34", "37~
## $ DIA_SEMANA         <chr> "sábado", "sábado", "jueves", "martes", "viernes", ~
## $ MES_SEMANA         <chr> "julio", "octubre", "noviembre", "diciembre", "dici~
## $ FESTIVO            <dbl> 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, ~
## $ FLORES             <dbl> 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ~
## $ FUTBOL             <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ~
## $ QUINCENA           <dbl> 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, ~

Descripción general de la base de datos

La base de datos de accidentalidad de Medellín recoge todos los accidentes que sucedieron en la ciudad de Medellín, Antioquia (Colombia) entre el lunes 14 de julio de 2014 y el lunes 31 de agosto de 2020, recogiendo algunos aspectos de cada uno de estos incidentes viales como la clase de accidente observado, la dirección en la que ocurrió, el código del expediente y su número de radicado, la fecha y hora y la ubicación en coordenadas geográficas. En general, las variables a considerar por esta base de datos son las siguientes:

  • Año. Año en el que sucedió el incidente.
  • CBML. Código catastral que corresponde al código, comuna, barrio, manzana, lote catastral de un predio.
  • Clase de accidente. Clasificación del IPAT sobre la clase de accidente de transito: choque, atropello, volcamiento, caida de ocupante, incendio, u otro (que no corresponde a las anteriores 5 clasificaciones, p. ej: sumersión).
  • Dirección. Dirección donde ocurrió el incidente.
  • Dirección encasillada. Dirección encasillada que entrega el geocodificador.
  • Diseño. Sitio de la vía donde ocurrió el accidente: ciclorruta, glorieta, intersección, lote o predio, paso a nivel, paso elevado, paso inferior, pontón, puente, tramo de vía, Túnel, vía peatonal.
  • Expediente. Consecutivo que asigna UNE, según el orden de llegada de los expedientes para su diligenciamiento.
  • Fecha del accidente. Fecha del accidente, proviene del IPAT - Informe Policial de Accidente de Tránsito.
  • Fecha de accidentes. Fecha de los accidente (formato YYYY-MM-DD hh:mi:ss), proviene del IPAT - Informe Policial de accidentes de Tránsito.
  • Gravedad del accidente. Clasificación del IPAT - Informe Policial de Accidentes de Tránsito, sobre la gravedad del accidente, corresponde al resultado más grave presentado en el accidente. Daños materiales: solo daños; accidente con heridos: herido; accidente con muertos: muerto. No indica cantidad.
  • Mes. Mes de ocurrencia del incidente vial.
  • Número de radicado. Consecutivo que asigna UNE según el orden de llegada de los expedientes para su diligenciamiento.
  • Número de la comuna. Número de la comuna en la que ocurrió incidente vial.
  • Barrio. Barrio de ocurrencia del incidente vial.
  • Comuna. Denominación con la cual se identifica cada comuna o corregimiento. 1:Popular, 2:Santa Cruz, 3: Manrique, 4: Aranjuez, 5: Castilla, 6: Doce de Octubre, 7: Robledo, 8: Villa Hermosa, 9: Buenos Aires, 10: La Candelaria, 11: Laureles - Estadio, 12: La América, 13: San Javier, 14: El Poblado, 15: Guayabal 16: Belén, 50: San Sebastián de Palmitas, 60: San Cristóbal, 70: Altavista, 80: San Antonio de Prado, 90: Santa Elena, 99: Toda la ciudad.
  • X. Coordenada X en metros del accidente, en sistema de coordenadas MAGNA Medellín local.
  • Y. Coordenada Y en metros del accidente, en sistema de coordenadas MAGNA Medellín Local.

Además, para facilidad con el manejo de las fechas, se separó la fecha de la hora de los accidentes en la base de datos de trabajo.

Descripción general

A continuación se puede observar una descripción general de las variables más importantes de esta base de datos.

Data Frame Summary

accidentes

Dimensions: 270330 x 26
Duplicates: 347
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 FECHA_ACCIDENTE [POSIXct, POSIXt]
min : 2014-07-04 05:40:00
med : 2017-06-07 08:30:00
max : 2020-08-31 21:45:00
range : 6y 1m 27d 16H 5M 0S
175928 distinct values 270325 (100.0%) 5 (0.0%)
2 AÑO [factor]
1. 2014
2. 2015
3. 2016
4. 2017
5. 2018
6. 2019
7. 2020
22352(8.3%)
46066(17.0%)
46991(17.4%)
46109(17.1%)
43300(16.0%)
45795(16.9%)
19717(7.3%)
270330 (100.0%) 0 (0.0%)
3 MES [factor]
1. Enero
2. Febero
3. Marzo
4. Abril
5. Mayo
6. Junio
7. Julio
8. Agosto
9. Septiembre
10. Octubre
[ 2 others ]
20098(7.4%)
22214(8.2%)
21499(8.0%)
19293(7.1%)
21249(7.9%)
20314(7.5%)
25018(9.3%)
27001(10.0%)
24129(8.9%)
23953(8.9%)
45562(16.9%)
270330 (100.0%) 0 (0.0%)
4 FECHA [Date]
min : 2014-07-04
med : 2017-06-07
max : 2020-09-01
range : 6y 1m 28d
2252 distinct values 270325 (100.0%) 5 (0.0%)
5 HORA [factor]
1. 00:00:00
2. 00:01:00
3. 00:02:00
4. 00:03:00
5. 00:04:00
6. 00:05:00
7. 00:06:00
8. 00:07:00
9. 00:08:00
10. 00:09:00
[ 1418 others ]
393(0.1%)
36(0.0%)
15(0.0%)
5(0.0%)
4(0.0%)
255(0.1%)
5(0.0%)
8(0.0%)
4(0.0%)
4(0.0%)
269596(99.7%)
270325 (100.0%) 5 (0.0%)
6 CLASE_ACCIDENTE [factor]
1. Atropello
2. Caída del ocupante
3. Choque
4. Incendio
5. Otro
6. Volcamiento
25313(9.4%)
24138(8.9%)
180431(66.7%)
35(0.0%)
30039(11.1%)
10368(3.8%)
270324 (100.0%) 6 (0.0%)
7 DISEÑO [factor]
1. Ciclorruta
2. Glorieta
3. Intersección
4. Lote o predio
5. Paso a nivel
6. Paso elevado
7. Paso inferior
8. Pontón
9. Puente
10. Tramo de vía
[ 2 others ]
1040(0.4%)
6756(2.5%)
43935(16.3%)
27104(10.1%)
125(0.0%)
1399(0.5%)
678(0.3%)
34(0.0%)
1064(0.4%)
187319(69.5%)
163(0.1%)
269617 (99.7%) 713 (0.3%)
8 GRAVEDAD_ACCIDENTE [factor]
1. Con heridos
2. Con muertos
3. Solo daños
150071(55.5%)
1054(0.4%)
119205(44.1%)
270330 (100.0%) 0 (0.0%)
9 BARRIO [factor]
1. (Empty string)
2. Área de expansión Altos d
3. Área de expansión Pajarit
4. Área de expansión San Ant
5. 0
6. Popular
7. Moscú No. 2
8. Aldea Pablo VI
9. Playón de los Comuneros
10. La Francia
[ 311 others ]
0(0.0%)
121(0.0%)
1029(0.4%)
83(0.0%)
0(0.0%)
539(0.2%)
414(0.2%)
86(0.0%)
396(0.2%)
367(0.1%)
247063(98.8%)
250098 (92.5%) 20232 (7.5%)
10 COMUNA [factor]
1. Aranjuez
2. Belén
3. Buenos Aires
4. Castilla
5. Corregimiento de Altavist
6. Corregimiento de San Anto
7. Corregimiento de San Cris
8. Corregimiento de San Seba
9. Corregimiento de Santa El
10. Doce de Octubre
[ 12 others ]
14345(5.7%)
16779(6.6%)
9869(3.9%)
24900(9.8%)
570(0.2%)
4039(1.6%)
2630(1.0%)
19(0.0%)
610(0.2%)
6877(2.7%)
173233(68.2%)
253871 (93.9%) 16459 (6.1%)
11 X_MAGNA [numeric]
Mean (sd) : 833003.5 (4183.6)
min ≤ med ≤ max:
820000 ≤ 834160.7 ≤ 843984.8
IQR (CV) : 2922.9 (0)
25875 distinct values 270330 (100.0%) 0 (0.0%)
12 Y_MAGNA [numeric]
Mean (sd) : 1182893 (3166.8)
min ≤ med ≤ max:
1172269 ≤ 1182902 ≤ 1196215
IQR (CV) : 4729.6 (0)
26182 distinct values 270330 (100.0%) 0 (0.0%)
13 LONGITUD [numeric]
Mean (sd) : -75.6 (0)
min ≤ med ≤ max:
-75.7 ≤ -75.6 ≤ -75.5
IQR (CV) : 0 (0)
26667 distinct values 270330 (100.0%) 0 (0.0%)
14 LATITUD [numeric]
Mean (sd) : 6.2 (0)
min ≤ med ≤ max:
6.2 ≤ 6.2 ≤ 6.4
IQR (CV) : 0 (0)
26667 distinct values 270330 (100.0%) 0 (0.0%)
15 COMUNASMOD [character]
1. La Candelaria
2. Laureles - Estadio
3. Castilla
4. El Poblado
5. x
6. Guayabal
7. Belén
8. Robledo
9. Aranjuez
10. Buenos Aires
[ 12 others ]
52249(19.3%)
26941(10.0%)
24871(9.2%)
21707(8.0%)
20391(7.5%)
18464(6.8%)
16859(6.2%)
16485(6.1%)
14335(5.3%)
9869(3.7%)
48159(17.8%)
270330 (100.0%) 0 (0.0%)
16 DIAX [integer]
Mean (sd) : 15.7 (8.7)
min ≤ med ≤ max:
1 ≤ 16 ≤ 31
IQR (CV) : 15 (0.6)
31 distinct values 270325 (100.0%) 5 (0.0%)
17 MESX [numeric]
Mean (sd) : 6.7 (3.4)
min ≤ med ≤ max:
1 ≤ 7 ≤ 12
IQR (CV) : 6 (0.5)
12 distinct values 270325 (100.0%) 5 (0.0%)
18 AÑOX [numeric]
Mean (sd) : 2017 (1.8)
min ≤ med ≤ max:
2014 ≤ 2017 ≤ 2020
IQR (CV) : 3 (0)
2014:22329(8.3%)
2015:46088(17.0%)
2016:46977(17.4%)
2017:46104(17.1%)
2018:43315(16.0%)
2019:45788(16.9%)
2020:19724(7.3%)
270325 (100.0%) 5 (0.0%)
19 SEMANAX [numeric]
Mean (sd) : 27.3 (14.9)
min ≤ med ≤ max:
1 ≤ 28 ≤ 53
IQR (CV) : 26 (0.5)
53 distinct values 270325 (100.0%) 5 (0.0%)
20 SEMANAXX [character]
1. 31
2. 33
3. 35
4. 32
5. 28
6. 30
7. 29
8. 38
9. 37
10. 51
[ 43 others ]
6367(2.4%)
6284(2.3%)
6124(2.3%)
6085(2.3%)
5918(2.2%)
5833(2.2%)
5812(2.2%)
5764(2.1%)
5724(2.1%)
5715(2.1%)
210699(77.9%)
270325 (100.0%) 5 (0.0%)
21 DIA_SEMANA [character]
1. domingo
2. jueves
3. lunes
4. martes
5. miércoles
6. sábado
7. viernes
28097(10.4%)
40382(14.9%)
38262(14.2%)
41780(15.5%)
41083(15.2%)
38693(14.3%)
42028(15.5%)
270325 (100.0%) 5 (0.0%)
22 MES_SEMANA [character]
1. agosto
2. julio
3. septiembre
4. octubre
5. diciembre
6. noviembre
7. febrero
8. marzo
9. mayo
10. junio
[ 2 others ]
26993(10.0%)
25014(9.3%)
24140(8.9%)
23927(8.9%)
23278(8.6%)
22365(8.3%)
22195(8.2%)
21562(8.0%)
21289(7.9%)
20279(7.5%)
39283(14.5%)
270325 (100.0%) 5 (0.0%)
23 FESTIVO [numeric]
Min : 0
Mean : 0
Max : 1
0:262214(97.0%)
1:8116(3.0%)
270330 (100.0%) 0 (0.0%)
24 FLORES [numeric]
Min : 0
Mean : 0
Max : 1
0:263312(97.4%)
1:7018(2.6%)
270330 (100.0%) 0 (0.0%)
25 FUTBOL [numeric]
Min : 0
Mean : 0
Max : 1
0:267954(99.1%)
1:2376(0.9%)
270330 (100.0%) 0 (0.0%)
26 QUINCENA [numeric]
Min : 0
Mean : 0.2
Max : 1
0:227202(84.0%)
1:43128(16.0%)
270330 (100.0%) 0 (0.0%)

Generated by summarytools 1.0.0 (R version 4.0.5)
2021-11-27

Año

A continuación se observa una tabla de frecuencias para los años de los incidentes registrados en la base de datos de incidentes.

Como se observa, los años 2015 a 2019 tienen aproximadamente la misma cantidad de observaciones en cada uno de ellos, lo cual es de esperar porque para todos ellos se cubre la totalidad del año, mientras que para los años 2014 y 2020 solo se cubre una parte de ellos. En todo caso, es interesante observar que el año en el que más accidentes se observaron fue el 2016, con 46,989 incidentes en total, lo cual representa el 17.38 % del total de observaciones. Gráficamente, se puede visualizar mediante el siguiente gráfico de barras:

Clase de accidente

La clase de accidente es una variable categórica de orden nominal que define de forma generar las características del incidente observado, de manera que esta variable puede asumir cualquiera de los siguientes niveles:

  • Choque
  • Atropello
  • Volcamiento
  • Caída del ocupante
  • Incendio
  • Otro

Teniendo esto presente, se puede definir la siguiente tabla de frecuencias para esta base de datos:

De la tabla anterior se puede observar que el tipo de accidente más frecuente es el choque, pues se observaron un total de 180,410 incidentes de tráfico que involucraron a este tipo de colisiones, lo que representa al 66.74 % de los accidentes, lo cual es llamativo porque resulta más de dos terceras partes de todos los incidentes ocurridos en la ciudad de Medellín entre el año 2014 y 2020. A continuación se tienen a los incidentes que no clasifican en ninguna de las categorías propuestas por Informe Policial de Accidentes de Tránsito, IPAT, es decir, los que se etiquetan como “otro”, dado que el 11,11 % de los incidentes registrados clasifican en esta categoría. En tercer lugar se tiene a los atropellamientos que abarcan al 9.36 % de los accidentes de tránsito observados en Medellín en el periodo mencionado. Por último, vale destacar que el tipo de incidente menos frecuente de todos es el que involucra a incendios, ya que durante este periodo solo sucedieron 35 eventos de este tipo, lo cual se evidencia en el siguiente gráfico de barras, pues la barra asociada a este tipo de incidente ni siquiera es apreciable, toda vez que las colisiones opacan al resto por su alta frecuencia relativa.

Diseño

Uno de los aspectos más importantes a la hora de evaluar un incidente de tránsito es caracterizar el tipo de espacio en el que sucedió el accidente en términos de la infraestructura física, y esta característica es determinada en la base de datos en la variable “diseño”, que resulta siendo una variable categórica con un nivel nominal, y se describen los siguientes tipos de infraestructura:

  • Ciclorruta.
  • Glorieta.
  • Intersección.
  • Lote o predio.
  • Paso a nivel.
  • Paso elevado.
  • Paso inferior.
  • Pontón.
  • Puente.
  • Tramo de vía.
  • Túnel.
  • vía peatonal.

Y una tabla de frecuencias relacionada a esta variable es la siguiente:

Revisando la tabla anterior se tiene que la infraestructura vial en la que más incidentes de tránsito sucedieron en Medellín entre el 2014 y el 2020 es el tramo de vía, pues en estos se dieron el 69,29 % del total de accidentes observados en la ciudad de Medellín en el periodo mencionado, lo cual es bastante lejano al resto de incidentes. Además, es llamativo observar que el segundo tipo de infraestructura donde más incidentes se dieron son las intersecciones, donde ocurrieron el 16.25 % de los incidentes. Además, donde menos incidentes ocurrieron fue en los pasos inferiores, ya que únicamente el 0.25 % de los accidentes ocurrieron en este tipo de vías.

Fecha

Mes

Comuna

Barrio